部署到现实世界的自主智能代理必须与对感官输入的对抗性攻击保持强大的态度。在加强学习中的现有工作集中于最小值扰动攻击,这些攻击最初是为了模仿计算机视觉中感知不变性的概念。在本文中,我们注意到,这种最小值扰动攻击可以由受害者琐碎地检测到,因为这些导致观察序列与受害者的行为不符。此外,许多现实世界中的代理商(例如物理机器人)通常在人类主管下运行,这些代理商不容易受到这种扰动攻击的影响。结果,我们建议专注于幻觉攻击,这是一种与受害者的世界模式一致的新型攻击形式。我们为这个新颖的攻击框架提供了正式的定义,在各种条件下探索了其特征,并得出结论,代理必须寻求现实主义反馈以对幻觉攻击具有强大的态度。
translated by 谷歌翻译
自我玩法是在马尔可夫游戏中构建解决方案的常见范式,可以在协作环境中产生最佳政策。但是,这些政策通常会采用高度专业的惯例,这使与新颖伴侣的比赛变得困难。为了解决这一问题,最近的方法依赖于将对称性和惯例意识编码为政策培训,但是这些方法需要强烈的环境假设,并使政策培训变得复杂。因此,我们建议将惯例的学习转移到信仰空间。具体而言,我们提出了一种信念学习模型,该模型可以维持对培训时间未观察到的政策推出的信念,因此可以在考试时进行解码和适应新的惯例。我们展示了如何利用这一模型来搜索和培训各种政策池中最佳响应,以极大地改善临时团队游戏。我们还展示了我们的设置如何促进细微的代理惯例的解释性和解释性。
translated by 谷歌翻译
In general-sum games, the interaction of self-interested learning agents commonly leads to collectively worst-case outcomes, such as defect-defect in the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as Learning with Opponent-Learning Awareness (LOLA), shape their opponents' learning process. However, these methods are myopic since only a small number of steps can be anticipated, are asymmetric since they treat other agents as naive learners, and require the use of higher-order derivatives, which are calculated through white-box access to an opponent's differentiable learning algorithm. To address these issues, we propose Model-Free Opponent Shaping (M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of the underlying inner game. The meta-state consists of the inner policies, and the meta-policy produces a new inner policy to be used in the next episode. M-FOS then uses generic model-free optimisation methods to learn meta-policies that accomplish long-horizon opponent shaping. Empirically, M-FOS near-optimally exploits naive learners and other, more sophisticated algorithms from the literature. For example, to the best of our knowledge, it is the first method to learn the well-known Zero-Determinant (ZD) extortion strategy in the IPD. In the same settings, M-FOS leads to socially optimal outcomes under meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional settings.
translated by 谷歌翻译
一般政策改进(GPI)和信任区域学习(TRL)是当代强化学习(RL)内的主要框架,其用作解决马尔可夫决策过程(MDP)的核心模型。不幸的是,在他们的数学形式中,它们对修改敏感,因此,实现它们的实际实例化不会自动继承其改进保证。结果,可用严格的MDP-溶剂的光谱窄。实际上,许多最先进的(SOTA)算法,例如TRPO和PPO,不能被证明收敛。在本文中,我们提出了\ Textsl {镜像学习} - 对RL问题的一般解决方案。我们揭示了GPI和TRL,但在这个算法的近似空间内的小点,拥有单调改善性,并收敛到最佳政策。我们表明,RL的几乎所有SOTA算法都是镜像学习的实例,因此表明其实证性能是其理论属性,而不是近似类比的结果。令人兴奋的是,我们表明镜像学习与收敛保证的策略学习方法开辟了全新的全新空间。
translated by 谷歌翻译
网络攻击幅度越来越大,频率和复杂性增加。作为回应,安全社区正在通过机器学习来全自动自动化网络防御系统。然而,到目前为止,尚未审查对攻击者和防守者共施工动力学的产生影响。在这个白皮书中,我们假设两侧的自动化增加将加速共同循环,从而求求出是否有任何所产生的固定点,以及它们的特征方式。在欧洲最大的网络统计学运动中锁定盾牌威胁模型,我们研究了对网络分类器的黑箱对抗攻击。给予已经存在的攻击能力,我们质疑基于最小逃避距离的最佳逃避攻击框架的效用。相反,我们建议一种新颖的加强学习设置,可用于有效地产生任意的对抗性扰动。然后,我们认为攻击者 - 后卫固定点本身是具有复杂相转换的普通和游戏,并引入了一个时间扩展的多智能体增强学习框架,其中可以研究所得到的动态。我们假设AI-NID的一个合理的固定点可能是防御策略严重依赖于白名单特征流子空间的情况。最后,我们证明需要持续的学习方法来研究暂时扩展的普通和游戏中的攻击者 - 后卫动态。
translated by 谷歌翻译
我们考虑通过马尔可夫决策过程轨迹传达外源信息的问题。我们称之为马尔可夫编码游戏(MCG)的设置概括了源编码和大量的参考游戏。 MCG还隔离了一个在不可用的分散控制环境中很重要的问题,即不可用的问题 - 即,他们需要平衡沟通与相关的交流成本。我们基于最大的熵增强学习和我们称为模因的最小熵耦合,为MCGS提供理论上的基础方法。由于最近在最小熵耦合的近似算法中突破,模因不仅是理论算法,而且可以应用于实际设置。从经验上讲,我们表明模因能够在小MCG上胜过强大的基线,并且该模因能够在极大的MCG上实现强大的性能。到后点,我们证明了Meme能够通过Cartpole和Pong的轨迹无误地传达二进制图像,同时同时获得最大或接近最大的预期回报,并且甚至在执行器噪声的情况下甚至能够表现良好。
translated by 谷歌翻译
In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centralised fashion in a simulated or laboratory setting, where global state information is available and communication constraints are lifted. Learning joint actionvalues conditioned on extra state information is an attractive way to exploit centralised learning, but the best strategy for then extracting decentralised policies is unclear. Our solution is QMIX, a novel value-based method that can train decentralised policies in a centralised end-to-end fashion. QMIX employs a network that estimates joint action-values as a complex non-linear combination of per-agent values that condition only on local observations. We structurally enforce that the joint-action value is monotonic in the per-agent values, which allows tractable maximisation of the joint action-value in off-policy learning, and guarantees consistency between the centralised and decentralised policies. We evaluate QMIX on a challenging set of StarCraft II micromanagement tasks, and show that QMIX significantly outperforms existing value-based multi-agent reinforcement learning methods.
translated by 谷歌翻译
个性化的纵向疾病评估对于快速诊断,适当管理和最佳调整多发性硬化症(MS)的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里,我们设计了一种新型的纵向模型,以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先,我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来,我们通过插补对待缺失的数据。然后,我们通过使用广义估计方程来发现MS的潜在标记。随后,从多个培训数据集中学到的参数被结合起来形成一个简单的,统一的纵向预测模型,以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估,最终模型结合了第一天的数据。结果表明,所提出的模型有望实现个性化的纵向MS评估。他们还表明,与步态和平衡以及上肢功能有关的功能(从基于传感器的评估中远程收集)可能是预测MS随时间推移的有用数字标记。
translated by 谷歌翻译
人工智能使在各个领域的问题上实施了更准确,更有效的解决方案。在农业部门,主要需求之一是在始终了解农作物所占据或不占领的土地,以提高生产和盈利能力。传统的计算方法需要手动收集数据,并在现场亲自收集,从而导致较高的人工成本,执行时间和结果不准确。目前的工作提出了一种基于深度学习技术的新方法,该技术与常规编程相辅相成,以确定人口稠密和人口不足的作物区域的面积。我们认为作为案例研究是厄瓜多尔种植和收获甘蔗中最知名的公司之一。该策略结合了生成的对抗神经网络(GAN),该网络在天然和城市景观的航空照片数据集上进行了训练,以改善图像分辨率;卷积神经网络(CNN)在甘蔗地块的航空照片数据集上训练,以区分人口稠密的农作物区域;以及以百分比方式计算区域的标准图像处理模块。进行的实验表明,航空照片的质量有显着改善,以及人口稠密的农作物区域和未吞噬的作物区域之间的显着差异,因此,耕种和未经耕种的地区更准确。所提出的方法可以扩展到可能的害虫,杂草植被,动态作物发展以及定性和定量质量控制的检测。
translated by 谷歌翻译
在过去的三十年中,规划界一直探索了无数的数据驱动模型采集方法。这些范围是复杂的(例如,简单的设置操作到全面的重新汇总),方法论(例如,基于逻辑的基于逻辑与基于策划)和假设(例如,完全与部分可观察到)。该空间中不少于43个出版物,了解在新环境中应该或应该采用哪种方法可能是压倒性的。我们提出了动作模型采集空间的整体表征,并进一步引入了自动化动作模型采集的统一框架。我们已经重新实现了该地区的一些具有里程碑意义的方法,我们对所有技术的表征都深入了解了剩下的研究机会。即,那些无法解决技术的设置。
translated by 谷歌翻译